Décoder les plans des rebelles
Analysons les tweets de Donald Trump de 2009 à 2016
Les données ont le format suivant:
Après transformation via
des Expressions Régulère
(RegEx):
tidy_tweet <- tweet %>%
distinct() %>%
mutate(date_time = ymd_hms(paste(Date, Time)),
user=str_extract_all(message_punctuationless, '@(\\w){1,15}'),
is_rt = ifelse( str_detect(message, '^ RT @|^RT @|"@'),1,0),
rt_user = ifelse(is_rt, str_extract(message, '@(\\w){1,15}'), NA),
text = ifelse(is_rt & ((str_detect(message,'^"') & str_count(message,'"')==1|str_detect(message,'^RT'))),'',
ifelse(is_rt , str_remove_all(message, '".*"'), message)),
hashtag = str_extract_all(message, '#(\\w){1,30}')) Mot par mot
Natural Language Processing
(Machine Learning)
Les mots les plus utilisés lorsqu’il mentionne les comptes @FoxNews et @CNN
Merci pour votre attention